Data Transformation Techniques (Normalization, Standardization)

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Data Cleaning এবং Preprocessing

311

ডেটা ট্রান্সফর্মেশন টেকনিক, যেমন Normalization এবং Standardization, মেশিন লার্নিং মডেল এবং স্ট্যাটিস্টিক্যাল বিশ্লেষণের জন্য ডেটা প্রস্তুত করার ক্ষেত্রে গুরুত্বপূর্ণ। এই দুইটি পদ্ধতি ডেটাকে স্কেল করে সমান আকারে আনার জন্য ব্যবহৃত হয়, তবে এদের পদ্ধতি এবং ফলাফল আলাদা।

১. Normalization (Min-Max Scaling)

Normalization, যা Min-Max scaling নামেও পরিচিত, ডেটাকে একটি নির্দিষ্ট সীমায়, সাধারণত [0, 1] অথবা [-1, 1] রেঞ্জে স্কেল করার প্রক্রিয়া। এটি তখন ব্যবহৃত হয় যখন ডেটার বণ্টন গাউসিয়ান (normal distribution) নয় বা যখন মডেলটি ডেটার পরিমাণের প্রতি সংবেদনশীল (যেমন k-nearest neighbors, neural networks ইত্যাদি)।

Normalization এর সূত্র:

Min-Max স্কেলিংয়ের সূত্র হল:

$\text{Normalized value} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$

এখানে:

$X$ হল মূল ডেটা পয়েন্ট।
$X_{\text{min}}$ এবং $X_{\text{max}}$ হল ফিচারের ন্যূনতম এবং সর্বাধিক মান।

উদাহরণ:

ধরা যাক ডেটা:

$\text{Data} = [2, 4, 6, 8, 10]$

ন্যূনতম মান $X_{\text{min}} = 2$
সর্বাধিক মান $X_{\text{max}} = 10$

যদি $X = 6$ কে নরমালাইজ করতে হয়:

$\text{Normalized} = \frac{6 - 2}{10 - 2} = \frac{4}{8} = 0.5$

কবে Normalization ব্যবহার করবেন:

যখন ফিচারের ইউনিটগুলি আলাদা থাকে (যেমন, বছর হিসেবে বয়স, ডলারে বেতন ইত্যাদি)।
যখন ডেটাকে একটি নির্দিষ্ট সীমায় [0, 1] রাখতে চান।
যখন এমন অ্যালগরিদম ব্যবহার করছেন যা ডেটার পরিমাণের প্রতি সংবেদনশীল, যেমন নিউরাল নেটওয়ার্ক, k-NN ইত্যাদি।

২. Standardization (Z-Score Normalization)

Standardization, যা Z-score normalization নামেও পরিচিত, ডেটাকে এমনভাবে স্কেল করে যাতে এর গড় মান 0 এবং স্ট্যান্ডার্ড ডিভিয়েশন 1 হয়। Standardization কোনও নির্দিষ্ট সীমায় ডেটা বাউন্ড না করলেও এটি ডেটাকে কেন্দ্রিত করে এবং স্কেল করে দেয়। এটি মূলত তখন ব্যবহৃত হয় যখন ডেটা গাউসিয়ান (normal) বণ্টন অনুসরণ করে অথবা যখন অ্যালগরিদমে বৈশিষ্ট্যের বৈচিত্র্য গুরুত্বপূর্ণ।

Standardization এর সূত্র:

Standardization এর সূত্র হল:

$\text{Standardized value} = \frac{X - \mu}{\sigma}$

এখানে:

$X$ হল মূল ডেটা পয়েন্ট।
$\mu$ হল ফিচারের গড় মান।
$\sigma$ হল ফিচারের স্ট্যান্ডার্ড ডিভিয়েশন।

উদাহরণ:

ধরা যাক ডেটা:

$\text{Data} = [2, 4, 6, 8, 10]$

গড় মান $\mu = \frac{2 + 4 + 6 + 8 + 10}{5} = 6$
স্ট্যান্ডার্ড ডিভিয়েশন $\sigma = \sqrt{\frac{(2-6)^2 + (4-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2}{5}} = 2.83$

যদি $X = 6$ কে স্ট্যান্ডারাইজ করতে হয়:

$\text{Standardized} = \frac{6 - 6}{2.83} = 0$

কবে Standardization ব্যবহার করবেন:

যখন ডেটা গাউসিয়ান (normal) বণ্টন অনুসরণ করে অথবা যদি ডেটার গড় এবং স্ট্যান্ডার্ড ডিভিয়েশন গুরুত্বপূর্ণ হয়।
যখন ডেটাকে গড় 0 এবং স্ট্যান্ডার্ড ডিভিয়েশন 1 এর সাথে স্কেল করতে চান।
এমন অ্যালগরিদমে ব্যবহার করুন যা বৈশিষ্ট্যের বৈচিত্র্য বা গড়কে গুরুত্ব দেয়, যেমন লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন, SVM ইত্যাদি।

Normalization এবং Standardization এর মধ্যে পার্থক্য

দিক	Normalization (Min-Max Scaling)	Standardization (Z-Score Normalization)
সূত্র	$\frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}$	$\frac{X - \mu}{\sigma}$
রেঞ্জ	নির্দিষ্ট রেঞ্জে স্কেল (সাধারণত [0, 1] অথবা [-1, 1])	ডেটার গড় 0 এবং স্ট্যান্ডার্ড ডিভিয়েশন 1 হয়, তবে রেঞ্জ সীমাবদ্ধ নয়
প্রভাব	আউটলাইয়ারদের ওপর সংবেদনশীল (কারণ মিন এবং ম্যাক্সে প্রভাবিত হতে পারে)	আউটলাইয়ারদের ওপর কম প্রভাবিত, তবে কিছুটা প্রভাব থাকে
ব্যবহার	যখন জানি যে ডেটার একটি নির্দিষ্ট সীমা আছে অথবা ডেটা গাউসিয়ান নয়	যখন ডেটা গাউসিয়ান (normal) বণ্টন অনুসরণ করে বা গড় ও স্ট্যান্ডার্ড ডিভিয়েশন গুরুত্বপূর্ণ
অ্যালগরিদম	k-NN, নিউরাল নেটওয়ার্ক, ডিপ লার্নিং	লিনিয়ার রিগ্রেশন, লজিস্টিক রিগ্রেশন, PCA, SVM

Practical Considerations

Normalization সাধারণত তখন ব্যবহার করা হয় যখন ডেটার ইউনিট বা স্কেল আলাদা থাকে, যেমন বয়স এবং বেতন বিভিন্ন ইউনিটে থাকে। এটি তখন ব্যবহৃত হয় যখন এমন অ্যালগরিদম ব্যবহার করতে হয় যা ডেটার পরিমাণের প্রতি সংবেদনশীল (যেমন k-NN, নিউরাল নেটওয়ার্ক)।
Standardization তখন ব্যবহৃত হয় যখন ডেটা গাউসিয়ান (normal) বণ্টন অনুসরণ করে অথবা যখন অ্যালগরিদম ডেটার বৈচিত্র্য (variance) বা গড় (mean) গুরুত্ব দেয়।

Python Implementation

Normalization (Min-Max Scaling):

from sklearn.preprocessing import MinMaxScaler

# Sample data
data = [[2], [4], [6], [8], [10]]

# Create a MinMaxScaler object
scaler = MinMaxScaler()

# Fit and transform the data
normalized_data = scaler.fit_transform(data)

print(normalized_data)

Standardization (Z-Score Normalization):

from sklearn.preprocessing import StandardScaler

# Sample data
data = [[2], [4], [6], [8], [10]]

# Create a StandardScaler object
scaler = StandardScaler()

# Fit and transform the data
standardized_data = scaler.fit_transform(data)

print(standardized_data)

সারাংশ

Normalization এবং Standardization হল গুরুত্বপূর্ণ ডেটা ট্রান্সফর্মেশন টেকনিক, যা ডেটাকে স্কেল করার জন্য ব্যবহৃত হয়। Normalization ব্যবহার করা হয় যখন ডেটার স্কেল আলাদা থাকে এবং আপনি একে নির্দিষ্ট সীমায় (যেমন [0, 1]) আনার জন্য চান। Standardization ব্যবহৃত হয় যখন ডেটা গাউসিয়ান (normal) বণ্টন অনুসরণ করে এবং আপনি ডেটাকে গড় 0 এবং স্ট্যান্ডার্ড ডিভিয়েশন 1 এ আনতে চান। কোন পদ্ধতি ব্যবহার করবেন তা নির্ভর করে আপনার ডেটার প্রকৃতি এবং ব্যবহৃত অ্যালগরিদমের উপর।

Content added By

SATT Academy

Raw Data Cleaning এবং Preprocessing Missing Values এবং Duplicates Handle করা Data Encoding (Label Encoding, One-Hot Encoding) Outliers Detection এবং Removal Techniques

Data Transformation Techniques (Normalization, Standardization)

১. Normalization (Min-Max Scaling)

Normalization এর সূত্র:

উদাহরণ:

কবে Normalization ব্যবহার করবেন:

২. Standardization (Z-Score Normalization)

Standardization এর সূত্র:

উদাহরণ:

কবে Standardization ব্যবহার করবেন:

Normalization এবং Standardization এর মধ্যে পার্থক্য

Practical Considerations

Python Implementation

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Data Transformation Techniques (Normalization, Standardization)

১. Normalization (Min-Max Scaling)

Normalization এর সূত্র:

উদাহরণ:

কবে Normalization ব্যবহার করবেন:

২. Standardization (Z-Score Normalization)

Standardization এর সূত্র:

উদাহরণ:

কবে Standardization ব্যবহার করবেন:

Normalization এবং Standardization এর মধ্যে পার্থক্য

Practical Considerations

Python Implementation

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!